Słowem wstępu

Pokazujemy EDA tych zbiorów, które mamy na obecnym etapie. Nie chcemy dopinać analiz jednak jeszcze na ostatni guzik, bo zarówno z tego co zaprezentujemy jak i po przekonsultowaniu tego, prawdopodobnie zbiorek będzie ewoluował.

Rozpoczęliśmy zbieranie danych z twittera, początkowe walki z ich API, ale i limity nałożone na dostęp do danych mocno by ograniczyły możliowści analiz Twittera pod kątem tematu naszego projektu.

Na szczęście z pomocą pojawia się narzędzie snscrape pod licencją GNU https://github.com/JustAnotherArchivist/snscrape. Oferuje on sporą elastyczność i możliwości w scrapowaniu tweetów. Spośród wszystkich atrybutów jakie pojedyńczy tweet ma, decydujemy się na archiwizację: 'Datetime', 'Tweet Id','Text','Username','Replies Count','Retweets Count','Likes Count','Quotes Count', 'Language','Retweeted Tweet','Quoted Tweet','Mentioned Users', jako najbardziej przydatnych do dalszych analiz.

Obecnie najczęsciej filtrowaliśmy po keywordach, dacie, autorze oraz języku tweeta. Poniżej zestaw zbiór i jego query jako mały insight czego można się spodziewać:

DATA:

  1. Bucha Genocide - 10k tweets - keyword "Bucha" - since 2022.04.03 - until 2022.04.05 - filename "bucha_10k.csv" DONE
  2. First day of war - 100k tweets - keyword "Ukraine" - since 2022.02.24 - until 2022.02.25 - filename "russia_invades_ukraine_100k.csv" DONE
  3. FIFA suspends - 10k tweets - keyword "FIFA" - since 2022.02.28 - until 2022.02.29 - filename "fifa_suspends_10k.csv" DONE
  4. UEFA suspends - 10k tweets - keyword "UEFA" - since 2022.02.28 - until 2022.02.29 - filename "uefa_suspends_10k.csv" DONE
  5. Apple bans Russia - 10k tweets - keyword "Apple" - since 2022.03.01 - until 2022.03.02 - filename "apple_ban_10k.csv" DONE
  6. Visa ban - 10k tweets - keyword "Visa" - since 2022.03.01 - until 2022.03.02 - filename "visa_ban_10k.csv" DONE
  7. Mastercard ban - 10k tweets - keyword "Mastercard" - since 2022.03.01 - until 2022.03.02 - filename "mastercard_ban_10k.csv" DONE
  8. Ikea ban - 10k tweets - keyword "Ikea" - since 2022.03.03 - until 2022.03.04 - filename "ikea_ban_10k.csv" DONE
  9. Nike ban - 10k tweets - keyword "Nike" - since 2022.03.03 - until 2022.03.04 - filename "nike_ban_10k.csv" DONE
  10. Netflix ban - 10k tweets - keyword "Netflix" - since 2022.03.06 - until 2022.03.07 - filename "netflix_ban_10k.csv" DONE
  11. Tiktok ban - 10k tweets - keyword "Tiktok" - since 2022.03.06 - until 2022.03.07 - filename "tiktok_ban_10k.csv" DONE
  12. McDonald's ban - 10k tweets - keyword "McDonald's" - since 2022.03.08 - until 2022.03.09 - filename "mcdonalds_ban_10k.csv" DONE
  13. SWIFT ban - 50k tweets - keyword "SWIFT" - since 2022.03.02 - until 2022.03.03 - filename "swift_ban_50k.csv" DONE
  14. MEPs - 2k per MEP - 'from:'+name+' since:2020-02-23 until:2022-04-12 lang:en' - filename ‘twitter_MEPs_2k_2y.csv’’ DONE
  15. Before_war - 100k tweets - keyword Ukraine - since 2022.02.22 - until 2022.02.22 - filename ‘twitter_Ukraine_02_22’ DONE
  16. Russian Twitter - 100k tweets (max) - keyword Ukraine - since 2022.02.24 - until 2022.02.25 - lang: ru - filename ‘russian_twitter_firstday_100k.csv’ DONE
  17. Middle_of_2021 - 200k tweets - 'Ukraine since:2021-03-01 until:2021-09-01 lang:en' - filename ‘twitter_control_sample_200k_2021.csv’ DONE

Analiza będzie podzielona na 3 notebooki. Ten będzie poświęcony większym zbiorkom i danym w całości. Dwa odrębne do zbioru z rosyjskimi tweetami oraz jeden traktujący sankcje.

Zatem możemy zauważyć kilka większych zbiorów:

Middle_of_2021 mający umożliwić dokonywanie porównań z czasami przed kompletnym zaostrzeniem się konfliktu.

Before_war jest jeszcze sprzed inwazji, jednakże pamiętajmy, że jest to już z intensywnego gromadzenia się wojsk na granicy.

Oraz 2 zbiory z pierwszego dnia inwazji jeden w języku angielskim, drugi po rosyjsku.

Mamy także szereg zbiorków, który dotyczy najciekawszych naszym zdaniem sankcji nakładanych kolejno na państwo rosyjskie. Natomiast pierwszy Bucha Genocide ma zbierać tweety o masakrze dokonanej na ludności cywlinej na początku kwietnia w miejscowości Bucha.

Imports

utils

EDA

MEPs

Zaczniemy od analizy tweetów wrzucanych przez MEPsów

Na tak dużym wszystko wykonywało się bardzo długo, ograniczmy sie do czasu zaostrzenia konfliktu.

dlugosci tweetow

Przez bardzo długi czas wykonywania się zapytań, ograniczmy się do tweetów z czasów wojny.

Pojawiające się zbitki słów wydają się bardzo właściwe dla naszego tematu. Pokazują, że niesienie wsparcia jest istotne oraz jasno wskazywany jest agresor w ogólnej narracji. Niemniej jednak w debacie publicznej wyraźnie pokazuje się znaczenie Rosji w przemyśle energetycznym.

Popularnym było umieszczanie tej samej frazy w wielu tweetach tworząc pewien trend. Wyjaśnia to tez popularność ngramów every minute, second etc. widocznych 2 wykresy wyżej.

Powyżej dosyć ciekawe zestawienie 10 najbardziej lajkowanych tweetów.

'Your strategy of incremental sanctions doesn’t work. Cannot work…'

co do związku niektorych z sytuacją na Ukrainie możemy być niemal pewni. Pamiętajmy jednak, że w zbiorze bedzię znajdywało się na chwiele obecną wiele tweetów MEPsów na tematy inne niż Ukraina. Filtrowanie zostało zaaplikowane jedynie po dacie, nie po keywordach.

countries

Germany

Poland